智能论文笔记

Extension of Convolutional Neural Network along Temporal and Vertical Directions for Precipitation Downscaling

Takeyoshi Nagasato , Kei Ishida , Ali Ercan , Tongbi Tu , Masato Kiyama , Motoki Amagasaki , Kazuki Yokoo

分类：机器学习

2021-12-13

深入学习已被利用气候数据的统计侦查。具体地，已经成功地应用于降水估计的二维（2D）卷积神经网络（CNN）。该研究实现了一种三维（3D）CNN，以估计来自3D大气数据的流域规模的每日降水，并将结果与2D CNN的结果进行比较。沿时间方向（3D-CNN-TIME）和垂直方向（3D-CNN-VERT）延伸2D CNN。将这些扩展CNN的降水估计与第2D CNN的降水估计与根均方误差（RMSE），NASH-SUTCLIFFE效率（NSE）和第99百分位RMSE相比。发现3D-CNN-TIME和3D-CNN-VERT与2D CNN相比提高了降水估计的模型精度。3D-CNN-VERT在RMSE和NSE方面提供了培训和测试期间的最佳估计。

translated by 谷歌翻译

Use of 1D-CNN for input data size reduction of LSTM in Hourly Rainfall-Runoff modeling

Kei Ishida , Ali Ercan , Takeyoshi Nagasato , Masato Kiyama , Motoki Amagasaki

分类：机器学习 | 人工智能

2021-11-07

由一维卷积神经网络（1D-CNN）和长短期存储器（LSTM）网络组成的架构，该架构被提出为CNNSLSTM，用于在此中进行每小时降雨 - 径流模型学习。在CNNSLTSM中，CNN分量在长时间接收小时气象时间序列数据，然后LSTM组件从1D-CNN和小时气象时间序列数据接收提取的特征以进行短期持续时间。以案例研究为例，CNNSLSTM在日本伊希卡里河流域的每小时降雨径流建模。气象数据集由沉淀，空气温度，蒸发散，和长波辐射组成，用作输入，河流流量用作目标数据。为了评估所提出的CNNSLSTM的性能，将CNNSLSTM的结果与1D-CNN，LSTM的结果进行比较，仅用每小时输入（LSTMWHOUT），1D-CNN和LSTM（CNNPLSTM）的并行架构，以及使用每日的LSTM架构每小时输入数据（LSTMWDPH）。与三个传统架构（1D-CNN，LSTMWHOUL和CNNPLSTM）相比，CNNSLSTM对估计准确度明显改进，最近提出了LSTMWDPH。与观察到的流动相比，测试时段的NSE值的中值为0.455-0.469，用于1d-CNN（基于NCHF = 8,16和32，第一层的特征图的信道的数量CNN），用于CNNPLSTM的0.639-0.656（基于NCHF = 8,16和32），LSTMWHOUR的0.745，LSTMWDPH的0.831，CNNSLSTM为0.865-0.873（基于NCHF = 8,16和32）。此外，所提出的CNNSLSTM将1D-CNN的中值降低50.2％-51.4％，CNPLSTM在37.4％-40.8％，LSTMWHOUR，达27.3％-29.5％，LSTMWDPH为10.6％-13.4％。

translated by 谷歌翻译

Capabilities of Deep Learning Models on Learning Physical Relationships: Case of Rainfall-Runoff Modeling with LSTM

Kazuki Yokoo , Kei Ishida , Ali Ercan , Tongbi Tu , Takeyoshi Nagasato , Masato Kiyama , Motoki Amagasaki

分类：机器学习

2021-06-15

本研究调查了深度学习方法可以在输入和输出数据之间识别的关系。作为一个案例研究，选择了通过长期和短期内存（LSTM）网络在雪撬流域中的降雨 - 径流建模。每日沉淀和平均空气温度用作估计日常流量放电的模型输入。在模型培训和验证之后，使用假设输入进行了两个实验模拟，而不是观察到的气象数据，以澄清训练模型对输入的响应。第一个数值实验表明，即使没有输入沉淀，训练有素的模型产生流量放电，特别是冬季低流量和高流量在融雪期间。在没有沉淀的情况下，还通过训练模型复制了暖和较冷的条件对流动放电的影响。此外，该模型仅反映了在总年流量放电的积雪期间的总降水量的17-39％，揭示了强烈缺乏水量保护。本研究的结果表明，深度学习方法可能无法正确学习输入和目标变量之间的显式物理关系，尽管它们仍然能够保持强大的拟合效果。

translated by 谷歌翻译

Multi-Time-Scale Input Approaches for Hourly-Scale Rainfall-Runoff Modeling based on Recurrent Neural Networks

Kei Ishida , Masato Kiyama , Ali Ercan , Motoki Amagasaki , Tongbi Tu

分类：机器学习

2021-01-30

本研究提出了两种直接但有效的方法，以减少通过使用多时间级时间序列数据作为输入通过经常性神经网络（RNN）来计算时间序列建模所需的计算时间。一种方法并行地提供输入时间序列的粗略和精细时间分辨率至RNN。在将它们视为RNN的输入之前，另一个将输入时间序列数据的粗略和精细时间分辨率连接在一起。在这两种方法中，首先，利用更精细的时间分辨率数据来学习目标数据的精细时间尺度行为。接下来，预期较粗糙的时间分辨率数据将捕获输入和目标变量之间的长时间依赖性。通过采用长期和短期记忆（LSTM）网络，在雪撬流域实施时，为每小时降雨 - 径流建模实施，这是一种新型的RNN。随后，使用每日和每小时的气象数据作为输入，并将每小时流量放电视为目标数据。结果证实，两种拟议方法都可以显着降低RNN培训的计算时间（高达32.4次）。此外，提出的方法之一提高了估计准确性。

translated by 谷歌翻译

Fine-grained Image Editing by Pixel-wise Guidance Using Diffusion Models

Naoki Matsunaga , Masato Ishii , Akio Hayakawa , Kenji Suzuki , Takuya Narihira

分类：计算机视觉 | 机器学习

2022-12-05

Generative models, particularly GANs, have been utilized for image editing. Although GAN-based methods perform well on generating reasonable contents aligned with the user's intentions, they struggle to strictly preserve the contents outside the editing region. To address this issue, we use diffusion models instead of GANs and propose a novel image-editing method, based on pixel-wise guidance. Specifically, we first train pixel-classifiers with few annotated data and then estimate the semantic segmentation map of a target image. Users then manipulate the map to instruct how the image is to be edited. The diffusion model generates an edited image via guidance by pixel-wise classifiers, such that the resultant image aligns with the manipulated map. As the guidance is conducted pixel-wise, the proposed method can create reasonable contents in the editing region while preserving the contents outside this region. The experimental results validate the advantages of the proposed method both quantitatively and qualitatively.

translated by 谷歌翻译

Non-autoregressive Error Correction for CTC-based ASR with Phone-conditioned Masked LM

Hayato Futami , Hirofumi Inaguma , Sei Ueno , Masato Mimura , Shinsuke Sakai , Tatsuya Kawahara

分类：自然语言处理

2022-09-08

连接派时间分类（CTC）的模型在自动语音识别（ASR）方面具有吸引力，因为它们的非自动性性质。为了利用仅文本数据，语言模型（LM）集成方法（例如重新纠正和浅融合）已被广泛用于CTC。但是，由于需要降低推理速度，因此他们失去了CTC的非自动性性本质。在这项研究中，我们提出了一种使用电话条件的蒙版LM（PC-MLM）的误差校正方法。在提出的方法中，掩盖了来自CTC的贪婪解码输出中的较不自信的单词令牌。然后，PC-MLM预测这些蒙版的单词令牌给定的单词和手机补充了CTC。我们进一步将其扩展到可删除的PC-MLM，以解决插入错误。由于CTC和PC-MLM均为非自动回旋模型，因此该方法可以快速LM集成。在域适应设置中对自发日本（CSJ）和TED-LIUM2语料库进行的实验评估表明，我们所提出的方法在推理速度方面优于重新逆转和浅融合，并且在CSJ上的识别准确性方面。

translated by 谷歌翻译

Distilling the Knowledge of BERT for CTC-based ASR

Hayato Futami , Hirofumi Inaguma , Masato Mimura , Shinsuke Sakai , Tatsuya Kawahara

分类：自然语言处理

2022-09-05

Connectionist时间分类（CTC）的模型很有吸引力，因为它们在自动语音识别（ASR）中的快速推断。语言模型（LM）集成方法（例如浅融合和重新恢复）可以通过利用文本语料库的知识来提高基于CTC的ASR的识别准确性。但是，它们大大减慢了CTC的推论。在这项研究中，我们建议提炼基于CTC的ASR的BERT知识，从而扩展了我们先前针对基于注意的ASR的研究。基于CTC的ASR在训练过程中学习了BERT的知识，并且在测试过程中不使用BERT，从而维持CTC的快速推断。与基于注意力的模型不同，基于CTC的模型做出了框架级预测，因此它们需要与BERT的令牌级预测进行蒸馏。我们建议通过计算最合理的CTC路径来获得比对。对自发日语（CSJ）和TED-LIUM2语料库的实验评估表明，我们的方法改善了基于CTC的ASR的性能，而无需推理速度成本。

translated by 谷歌翻译

Developing a Component Comment Extractor from Product Reviews on E-Commerce Sites

Shogo Anda , Masato Kikuchi , Tadachika Ozono

分类：自然语言处理

2022-07-13

消费者经常阅读产品评论以告知他们的购买决定，因为一些消费者想了解产品的特定组成部分。但是，由于产品评论上的典型句子包含各种详细信息，因此用户必须在许多评论中识别有关他们想知道的组件的句子。因此，我们旨在开发一个系统，以识别和收集句子中产品的组件和方面信息。我们基于BERT的分类器分配了标签，这些标签参考了评论中的句子和句子的各个方面，并提取有关特定组件和方面的评论的句子。我们根据产品评论的模式匹配来确定的单词确定了适当的标签，以创建培训数据。因为我们无法将单词用作标签，所以我们仔细创建了涵盖单词含义的标签。但是，培训数据在组件和方面对不平衡。我们使用WordNet介绍了一种数据增强方法来减少偏差。我们的评估表明，该系统可以使用图案匹配来确定道路自行车的标签，涵盖了88％以上的电子商务网站上的组件和方面指标。此外，我们的数据增强方法可以从0.66到0.76提高F1的F1量度。

translated by 谷歌翻译

Hunting Group Clues with Transformers for Social Group Activity Recognition

Masato Tamura , Rahul Vishwakarma , Ravigopal Vennelakanti

分类：计算机视觉

2022-07-12

本文介绍了社会团体活动识别的新框架。作为集团活动识别的一项扩展任务，社会群体活动识别需要识别多个子组活动并识别小组成员。大多数现有方法通过完善区域功能来解决这两个任务，然后将它们汇总到活动特征中。这样的启发式功能设计使特征的有效性易于不完整的人本地化，并无视场景上下文的重要性。此外，区域特征是识别小组成员的次优最佳选择，因为这些特征可能由该地区的人群主导并具有不同的语义。为了克服这些缺点，我们建议利用变形金刚中的注意力模块来产生有效的社会群体特征。我们的方法的设计方式使注意力模块识别，然后汇总与社会团体活动相关的特征，从而为每个社会群体产生一个有效的功能。小组成员信息嵌入到功能中，从而通过馈电网络访问。馈送网络的输出代表组，因此可以通过组和个人之间的简单匈牙利匹配来识别小组成员。实验结果表明，我们的方法优于排球和集体活动数据集的最先进方法。

translated by 谷歌翻译

Entity Linking in Tabular Data Needs the Right Attention

Miltiadis Marios Katsakioris , Yiwei Zhou , Daniele Masato

分类：自然语言处理 | 机器学习

2022-07-05

了解表格数据的语义含义需要实体链接（EL），以便将每个单元格值与知识库（KB）中的现实世界实体相关联。在这项工作中，我们将重点放在EL的端到端解决方案上，这些解决方案不依赖于目标KB中的事实查找。表格数据包含异质和稀疏上下文，包括列标题，单元格值和表格字幕。我们尝试各种模型，以生成要链接的每个单元格值的向量表示。我们的结果表明，应用注意机制和注意力面罩至关重要，这样模型只能关注最相关的环境并避免信息稀释。最相关的上下文包括：相同的单元格，相同的细胞，标题和标题。然而，计算复杂性随着这种复杂模型的表格数据的大小而倍增。我们通过引入链接Lite模型（Tell）的表格实体来实现恒定的内存使用情况，该模型仅基于其值，表格标题和表格字幕，为单元格生成向量表示。告诉Wikipedia表上的精度达到80.8％，比具有二次内存使用情况的最新模型低0.1％。

translated by 谷歌翻译